2025.09.30 | SLA稀疏注意力砍算力；StableToken抗噪不训模

Update: 2025-09-30

Description

本期的 15 篇论文如下：

[00:22 ] ⚡ SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention（SLA：通过可微调稀疏线性注意力突破扩散Transformer的稀疏性极限）

[01:05 ] 🗣 StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs（StableToken：一种面向韧性SpeechLLM的噪声鲁棒语义语音分词器）

[01:54 ] 🎮 Multiplayer Nash Preference Optimization（多玩家纳什偏好优化）

[02:57 ] 🔗 RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark（RealUnify：统一模型真的因“统一”而更强吗？综合基准揭晓答案）

[03:44 ] 🎨 OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing（OpenGPT-4o-Image：面向高级图像生成与编辑的大规模综合数据集）

[04:28 ] 🧠 Beyond the Exploration-Exploitation Trade-off: A Hidden State Approach for LLM Reasoning in RLVR（超越探索-利用权衡：面向RLVR中LLM推理的隐状态方法）

[05:05 ] 🧩 Visual Jigsaw Post-Training Improves MLLMs（视觉拼图后训练提升多模态大模型）

[05:37 ] 🎬 SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer（SANA-Video：基于分块线性注意力Transformer的高效视频扩散生成模型）

[06:15 ] 🔬 Democratizing AI scientists using ToolUniverse（用ToolUniverse普及AI科学家）

[06:59 ] 🧠 When Does Reasoning Matter? A Controlled Study of Reasoning's Contribution to Model Performance（推理何时真正奏效？对推理贡献度的受控研究）

[07:31 ] 📊 GSM8K-V: Can Vision Language Models Solve Grade School Math Word Problems in Visual Contexts（GSM8K-V：视觉语言模型能否解决视觉语境下的小学数学应用题？）

[08:04 ] 🖼 EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling（EditScore：借助高保真奖励建模解锁图像编辑在线强化学习）

[08:54 ] 🚀 SparseD: Sparse Attention for Diffusion Language Models（SparseD：面向扩散语言模型的稀疏注意力机制）

[09:40 ] 🎛 EasySteer: A Unified Framework for High-Performance and Extensible LLM Steering（EasySteer：高性能可扩展LLM推理控制统一框架）

[10:32 ] 🧠 Towards Personalized Deep Research: Benchmarks and Evaluations（迈向个性化深度研究：基准与评估）

</figure>

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Comments

In Channel

【月末特辑】9月最火AI论文 | 群体RL共享降本；SAPO让旧机也能训大模型

2025-10-0223:10

2025.10.01 | 自对弈零标注训练；MCP代理深度评测

2025-10-0111:21

2025.09.30 | SLA稀疏注意力砍算力；StableToken抗噪不训模

2025-09-3011:45

2025.09.29 | 实时长视频边聊边播；分位数基线稳控推理熵

2025-09-2910:55

【周末特辑】9月第5周最火AI论文 | Qwen3-Omni开源称王; 锁定视觉训解码，Baseer刷新阿文OCR；

2025-09-2712:37

2025.09.26 | SciReasoner八项全能；MMR1模糊区炼出开源多模态

2025-09-2611:17

2025.09.25 | 视频模型零样本全能；隐式思维链省token提效

2025-09-2507:59

2025.09.24 | 阿语OCR刷新指标；无标注RL涨分

2025-09-2411:36

2025.09.23 | 少78条示范让AI飙73.5%；免掩膜视频插主体超Pika

2025-09-2311:18

2025.09.22 | 有向图驱动代码生成；双通道视觉统一模型

2025-09-2209:35

【周末特辑】9月第4周最火AI论文 | OmniWorld打造4D数据工厂；WebWeaver让AI边搜边写

2025-09-2013:21

2025.09.19 | 跨平台GUI模型刷榜；FlowRL分布匹配提推理

2025-09-1911:38

2025.09.18 | FP8压缩+翻译微调低成本炼阿语大模型；2B-8B小模型洗数据硬刚GPT-4o

2025-09-1810:41

2025.09.17 | WebWeaver框架提升可信长文报告；Agentic预训练扩展智能体系统

2025-09-1708:01

2025.09.16 | OmniWorld建4D数据底座；UI-S1半在线驯界面代理

2025-09-1609:00

2025.09.15 | 数据集升级测互动；模型大小非长程瓶颈

2025-09-1510:06

【周末特辑】9月第3周最火AI论文 | 群智RL提速大模型；小VLA零预训练控机械

2025-09-1414:35

2025.09.12 | HuMo多模态控人视频；SimpleVLA-RL强化升效

2025-09-1210:34

2025.09.11 | 强化学习提升推理能力；奖励缩放优化视觉生成

2025-09-1105:31

2025.09.10 | 强化学习并行思维；视觉搜索推理扩展

2025-09-1006:51

00:00

2025.09.30 | SLA稀疏注意力砍算力；StableToken抗噪不训模

#box-pro-ellipsis-175941423932273{-webkit-line-clamp:2;}2025.09.30 | SLA稀疏注意力砍算力；StableToken抗噪不训模

2025.09.30 | SLA稀疏注意力砍算力；StableToken抗噪不训模

2025.09.30 | SLA稀疏注意力砍算力；StableToken抗噪不训模